#políticas mixtas

SFT-then-RL supera a los métodos de política mixta para el razonamiento de LLM

SFT seguido de RL mejora el razonamiento de LLMs superando a políticas mixtas. Descubre los resultados de esta optimización.